VAMOS 능력 조절 및 제어 가능한 내비게이션을 위한 Hierarchical VLA model (2025-02-26)
2025-12-07, G30DR
1. 서론 (Introduction)
1.1 자율 로봇 내비게이션의 패러다임 전환과 현대적 과제
인공지능과 로봇 공학의 융합은 지난 수십 년간 괄목할 만한 성장을 거듭해 왔다. 특히 자율 주행 및 로봇 내비게이션(Navigation) 분야는 정해진 규칙을 따르는 고전적인 알고리즘에서, 방대한 데이터를 통해 환경을 이해하고 판단하는 학습 기반(Learning-based) 방법론으로 그 무게 중심이 이동하고 있다. 그러나 이러한 발전에도 불구하고, ’범용성(Generalization)’과 ’특수성(Specialization)’이라는 두 가지 상충되는 목표를 동시에 달성하는 것은 여전히 난제로 남아 있다.
로봇이 실세계에서 효과적으로 작동하기 위해서는 다양한 환경(실내, 실외, 비정형 지형 등)을 시각적으로 이해하고, 인간의 자연어 명령과 같은 고차원적인 의미론적 지시를 해석할 수 있어야 한다. 이를 위해서는 대규모 데이터셋을 통한 학습이 필수적이다. 반면, 로봇은 각기 다른 하드웨어적 형상(Embodiment)과 물리적 제약 조건을 가진다. 바퀴 달린 로봇(Wheeled Robot)은 평지를 빠르게 이동할 수 있지만 계단을 오를 수 없으며, 다족 보행 로봇(Legged Robot)은 험지 돌파 능력이 뛰어나지만 제어가 복잡하다. 기존의 단일 통합 모델(End-to-End Model)들은 이러한 물리적 특수성을 범용적인 지능 모델에 충분히 반영하지 못하거나, 반대로 특정 하드웨어에 과적합(Overfitting)되어 새로운 환경에 적응하지 못하는 한계를 보여왔다.1
1.2 VAMOS 프로젝트의 출범 배경 및 연구의 의의
2025년 10월, 워싱턴 대학교(University of Washington)와 미 육군 연구소(DEVCOM ARL)의 연구진은 이러한 문제를 해결하기 위한 혁신적인 프레임워크인 **VAMOS (Vision-Language-Action Model for Capability-Modulated and Steerable Navigation)**를 발표하였다.2 이 연구는 로봇의 ’지능적 계획(Semantic Planning)’과 ’신체적 접지(Embodiment Grounding)’를 명확히 분리하는 계층적 아키텍처를 제안함으로써, 로봇 내비게이션의 새로운 지평을 열었다는 평가를 받는다.
본 보고서는 VAMOS 모델의 아키텍처, 작동 원리, 그리고 실험적 성과를 심층적으로 분석한다. 특히 VAMOS가 어떻게 시각-언어 모델(VLM)의 추론 능력과 저비용 시뮬레이션을 통한 어포던스(Affordance) 학습을 결합하여, 물리적으로 상이한 이기종 로봇들을 단일 프레임워크로 제어하는지 규명한다. 또한, 자연어 명령을 통한 조향(Steerability) 기능이 인간-로봇 상호작용(HRI) 측면에서 갖는 함의를 고찰한다.
2. 이론적 배경 및 관련 연구 심층 분석 (Theoretical Background)
2.1 시각-언어-행동 모델(VLA)의 부상과 한계
시각-언어-행동 모델(Vision-Language-Action, VLA)은 컴퓨터 비전(Vision)과 자연어 처리(Language) 능력을 행동(Action) 생성과 직접적으로 연결하려는 시도이다. 이는 로봇이 “파란색 의자로 가라“와 같은 추상적인 명령을 이해하고 실행하는 데 필수적인 기술이다.
그러나 기존의 VLA 모델, 예를 들어 NaVILA와 같은 선행 연구들은 중대한 구조적 한계를 가지고 있었다.4 NaVILA는 자연어 명령을 “25cm 전진하라“와 같은 구체적인 텍스트 기반의 저수준 행동 명령으로 변환하는 방식을 취했다. 이러한 접근법은 다음과 같은 문제점을 야기한다:
- 명령의 모호성 (Ambiguity): 자연어는 본질적으로 모호성을 내포한다. 복잡한 비정형 환경에서 “조금 더 오른쪽으로“라는 명령을 정확한 미터법 수치로 변환하는 것은 맥락에 따라 그 의미가 달라질 수 있어 오류 발생 가능성이 높다.4
- 이산적 행동 공간의 제약: 연속적인 물리 공간을 텍스트 토큰으로 이산화(Discretization)하여 표현하는 과정에서 제어의 정밀도가 손실된다.4
- 신체화의 부재: 텍스트 명령은 로봇의 구체적인 운동학적 한계(Kinematics limits)를 내재적으로 포함하지 않는다. 따라서 모델은 로봇이 수행 불가능한 명령을 생성할 위험이 있다.
2.2 계층적 내비게이션과 어포던스 이론
심리학자 제임스 깁슨(James Gibson)이 제안한 어포던스(Affordance) 이론은 환경이 행위자에게 제공하는 행동 가능성을 의미한다. 로봇 공학에서 이는 특정 지형이 ’이동 가능한지(Traversable)’를 판단하는 능력으로 해석된다.
VAMOS는 고차원적인 경로 계획과 저차원적인 어포던스 판단을 분리하는 계층적 접근(Hierarchical Approach)을 취한다. 이는 인지과학에서 인간의 뇌가 의식적인 목표 설정(대뇌 피질)과 무의식적인 운동 제어(소뇌 및 척수)를 분리하여 처리하는 것과 유사한 전략이다. VAMOS는 이 개념을 도입하여, 상위 레벨에서는 ’어디로 가고 싶은가’를 결정하고, 하위 레벨에서는 ’어디로 갈 수 있는가’를 판단하게 함으로써 기존 모델들의 한계를 극복하고자 했다.4
3. VAMOS 아키텍처 방법론 (Methodology & Architecture)
VAMOS의 핵심 설계 철학은 **“의미론적 계획과 신체화 접지의 분리(Decoupling Semantic Planning from Embodiment Grounding)”**이다.2 이 장에서는 VAMOS를 구성하는 두 가지 주요 축인 상위 레벨의 범용 계획기와 하위 레벨의 특화 어포던스 모델, 그리고 이들을 연결하는 인터페이스에 대해 상세히 분석한다.
3.1 상위 레벨: 범용 시각-언어 계획기 (The Generalist High-Level VLM Planner)
VAMOS의 두뇌에 해당하는 상위 레벨 계획기는 대규모 데이터셋으로 학습된 시각-언어 모델(VLM)을 기반으로 한다.
-
입력 인터페이스 (Input Modalities):
-
RGB 이미지: 로봇의 시점에서 촬영된 현재 환경의 이미지.
-
목표 좌표 (Goal Coordinate): 텍스트로 인코딩된 목표 지점의 정보.
-
자연어 선호 (Natural Language Preferences): 사용자가 선택적으로 입력할 수 있는 제약 조건이나 선호 사항 (예: “잔디를 밟지 마시오”, “사람을 피하시오”).5
-
작동 메커니즘 (Mechanism):
이 계획기는 특정 로봇의 물리적 특성을 전혀 고려하지 않는다. 대신, 입력된 이미지와 언어적 지시를 바탕으로 논리적으로 타당해 보이는 경로들을 생성하는 데 집중한다. 이는 ’일반적인 지능’으로서, 어떤 로봇이든 공통적으로 가져야 할 환경 이해 능력을 담당한다.
- 출력 표현 (Output Representation - Location Tokens):
VAMOS의 독창적인 점은 경로를 표현하는 방식에 있다. 기존 모델들이 텍스트 명령을 사용한 것과 달리, VAMOS는 픽셀 공간(Pixel Space) 상의 경로 후보군(Candidate Paths)을 출력한다. 이 경로들은 위치 토큰(Location Token)의 문자열로 인코딩되어 생성된다.5 이는 이미지 내의 특정 픽셀 좌표들을 순차적으로 연결하여 경로를 시각적으로 제안하는 방식이다.
3.2 하위 레벨: 신체 특화 어포던스 모델 (The Embodiment-Specific Affordance Model)
상위 레벨 계획기가 제안한 경로들이 실제 로봇에서 실행 가능한지를 검증하는 단계이다. 이 모델은 ’전문가(Specialist)’로서 각 로봇의 고유한 신체적 능력을 대변한다.
- 학습 환경 (Simulation-based Training):
물리적인 상호작용 데이터를 실제 세계에서 수집하는 것은 비용이 많이 들고 위험하다. 따라서 VAMOS 연구진은 저비용의 시뮬레이션 환경을 구축하여 어포던스 모델을 학습시켰다.2 시뮬레이터 내에서 로봇은 수많은 지형과 장애물에 대해 이동을 시도하고 실패하는 과정을 반복하며, 자신의 물리적 한계(무엇을 넘을 수 있고, 무엇을 넘을 수 없는지)를 학습한다.
- 경로 평가 및 재순위화 (Evaluation & Re-ranking):
어포던스 모델은 상위 계획기가 제안한 픽셀 공간의 경로 후보들을 입력받아, 각 경로의 **실행 가능성(Feasibility)**을 평가한다. 이 과정에서 로봇의 기구학적 특성이 반영된 ’어포던스 점수’가 매겨지며, 이를 바탕으로 경로들의 순위가 재조정(Re-ranking)된다.1
3.3 인터페이스 디자인: 픽셀 공간의 전략적 우위
상위 모델과 하위 모델을 연결하는 인터페이스로 **이미지 공간(Image Space)**을 선택한 것은 VAMOS의 성공에 결정적인 역할을 했다.
| 비교 항목 | 텍스트 기반 인터페이스 (예: NaVILA) | 픽셀/이미지 기반 인터페이스 (VAMOS) |
|---|---|---|
| 정밀도 (Precision) | 낮음 (이산적, 모호함) | 높음 (연속적 공간 표현 가능) |
| 해석의 모호성 | 높음 (언어적 해석 차이 존재) | 낮음 (시각적 좌표로 명확함) |
| 범용성 (Universality) | 언어 모델 의존적 | 모든 시각 기반 로봇에 공통 적용 가능 |
| 데이터 효율성 | 언어-행동 쌍 데이터 필요 | 시각 데이터만으로 학습 및 추론 가능 |
이러한 설계를 통해 VAMOS는 텍스트가 가지는 모호성을 제거하고, 시각적 정보에 기반한 정밀한 계획을 수립할 수 있게 되었다. 상위 모델은 “저 나무 옆으로 가라“는 의미를 픽셀 좌표로 구체화하고, 하위 모델은 그 좌표를 따라가는 것이 물리적으로 가능한지만 판단하면 되므로 역할 분담이 명확해진다.
4. 능력 조절 및 이기종 로봇 제어 (Capability Modulation & Cross-Embodiment)
4.1 능력 조절(Capability Modulation)의 메커니즘
VAMOS의 가장 큰 강점은 단일한 고수준 지능(Brain)을 유지하면서도, 하위 레벨의 어포던스 모델만 교체함으로써 전혀 다른 종류의 로봇들을 제어할 수 있다는 점이다. 이를 ’능력 조절’이라 한다.
- 불가능한 계획의 거부 (Rejection of Infeasible Plans):
연구 결과에 따르면, 로봇 내비게이션 실패의 상당수는 로봇이 자신의 물리적 능력을 초과하는 행동을 시도할 때 발생한다. VAMOS의 하위 모델은 상위 모델이 제안한 경로 중 로봇이 수행 불가능한 경로(예: 바퀴형 로봇에게 제안된 계단 경로)를 감지하고, 이를 과감하게 거부(Reject)하거나 순위를 낮춘다.1
- 신뢰성 향상 (Reliability Gain):
이러한 필터링 메커니즘 덕분에 VAMOS는 단일 로봇의 운용 신뢰성을 획기적으로 향상시켰다. 실험 결과, 물리적으로 불가능한 계획을 사전에 차단함으로써 전체적인 임무 성공률이 약 3배 증가한 것으로 보고되었다.1 이는 로봇이 “무엇을 할 수 없는지“를 아는 것이 “무엇을 할 수 있는지“를 아는 것만큼이나 중요함을 시사한다.
4.2 교차 신체화(Cross-Embodiment) 내비게이션 사례
VAMOS는 바퀴형 로봇과 다족 보행 로봇(Legged Robot)이라는 상이한 두 가지 플랫폼에서 동일한 상위 계획기를 사용하여 성공적인 내비게이션을 증명했다.
- 시나리오 분석:
- 상황: 전방에 낮은 턱과 평탄한 우회로가 동시에 존재하는 상황.
- 상위 계획기: 두 경로 모두를 후보로 제안한다 (시각적으로는 둘 다 길처럼 보이기 때문).
- 바퀴형 로봇의 어포던스 모델: 턱을 넘는 경로에 낮은 점수를 부여하고, 우회로를 선택한다.
- 다족 보행 로봇의 어포던스 모델: 턱을 넘는 경로가 최단 거리라면 높은 점수를 부여하여 이를 선택한다.2
이러한 유연성은 VAMOS가 진정한 의미의 ’범용 내비게이션 프레임워크’임을 입증하는 사례이다.
5. 제어 가능한 내비게이션과 자연어 인터페이스 (Steerable Navigation)
5.1 자연어 조향 (Natural Language Steering)
기존의 자율 주행 시스템은 대부분 정해진 목적지(Goal Point)로의 최단 거리 이동만을 목표로 했다. 그러나 실제 인간의 환경에서는 “너무 가까이 가지 마”, “그늘로 이동해”, “사람들이 많은 곳은 피해“와 같은 복잡한 제약 조건이 수반된다. VAMOS는 이러한 요구를 수용하기 위해 자연어 조향 기능을 탑재했다.5
- 사용자 선호 통합: 사용자의 자연어 명령은 텍스트 인코더를 통해 처리되어 상위 레벨 VLM의 입력으로 들어간다. VLM은 시각적 정보와 이 언어적 제약 조건을 동시에 고려하여 경로를 생성한다.
- 유연한 경로 수정: 예를 들어, “잔디밭을 피해서 가라“는 명령이 입력되면, VLM은 시각적으로 잔디로 식별되는 영역을 가로지르는 경로 생성 확률을 낮추고, 포장도로 위주의 경로를 생성하도록 유도된다. 이는 로봇의 행동을 재학습시키지 않고도 추론(Inference) 단계에서 즉각적으로 행동 양식을 수정할 수 있게 해준다.
5.2 인간-로봇 상호작용(HRI)의 진화
VAMOS의 자연어 조향 기능은 로봇을 단순한 기계 장치에서 ’대화가 통하는 파트너’로 격상시킨다. 텍스트 명령을 픽셀 공간의 경로 계획으로 변환하는 과정에서 VLM의 풍부한 의미론적 지식(World Knowledge)이 활용되므로, 사용자는 로봇에게 매우 구체적이고 맥락 의존적인 명령을 내릴 수 있다. 이는 비전문가도 로봇을 쉽고 직관적으로 제어할 수 있게 함으로써 로봇 기술의 대중화에 기여할 수 있는 중요한 특징이다.
6. 실험적 검증 및 성능 평가 (Experimental Validation)
6.1 실험 설정 및 데이터셋
VAMOS의 성능을 검증하기 위해 연구진은 대규모의 이기종 데이터셋을 활용했다.
- SCAND (Stereo Continuous Action and Navigation Dataset): 약 19.5시간 분량의 351,200개 프레임으로 구성된 데이터셋이 활용되었다.6 이 데이터셋은 다양한 실내외 환경과 기상 조건에서 수집되어, 상위 레벨 계획기가 환경 변화에 강건한(Robust) 특징을 학습하는 데 기여했다.
- 비교군 (Baselines): VAMOS의 성능은 기존의 최첨단 모델들과 비교되었다. 여기에는 전통적인 모델 기반(Model-based) 방법론뿐만 아니라, 최신의 종단간(End-to-End) 학습 기반 범용 내비게이션 모델들이 포함되었다.
6.2 정량적 성과 분석
실험 결과는 VAMOS의 압도적인 우위를 보여준다.
| 성능 지표 (Metric) | 모델 기반 베이스라인 | 종단간 학습 베이스라인 | VAMOS (제안 모델) |
|---|---|---|---|
| 성공률 (Success Rate) | 낮음 | 중간 | 높음 (타 모델 대비 우수) |
| 물리적 충돌 빈도 | 높음 | 높음 | 매우 낮음 |
| 단일 로봇 신뢰성 | 기준점 | 기준점 | 약 3배 향상 1 |
| 환경 적응력 | 낮음 (특정 환경 한정) | 중간 | 높음 (실내/실외/복잡환경) |
- 실외 복잡 환경: 특히 정형화되지 않은 복잡한 실외 환경(Complex Outdoor Scenarios)에서 VAMOS의 성능 격차가 더욱 두드러졌다.1 이는 VLM의 뛰어난 시각적 이해 능력과 어포던스 모델의 물리적 제약 필터링이 시너지를 발휘한 결과로 해석된다.
- 전문가 모델의 중요성: “어포던스 모델(Specialist)“을 제거하고 상위 모델만 사용했을 때와 비교한 소거 연구(Ablation Study)에서, 전문가 모델이 신체화 접지에 결정적인 역할을 한다는 것이 확인되었다.1 이는 계층적 구조의 필요성을 실증적으로 뒷받침한다.
7. 종합 논의 및 미래 전망 (Discussion & Future Outlook)
7.1 “분리하여 정복하라 (Divide and Conquer)” 전략의 유효성 재확인
VAMOS 연구는 로봇 공학의 오랜 난제인 ‘모라벡의 역설(Moravec’s Paradox)’—고수준의 추론은 컴퓨터에게 쉽고, 저수준의 감각-운동 제어는 어렵다는 역설—을 해결하기 위한 효과적인 청사진을 제시했다. 고수준 지능과 저수준 신체 감각을 분리하고, 각기 다른 데이터 소스(인터넷 데이터 vs. 시뮬레이션 데이터)를 활용하여 최적화한 전략은 향후 로봇 학습의 표준 아키텍처로 자리 잡을 가능성이 크다.
7.2 파운데이션 모델의 로봇 공학 적용 가속화
VAMOS는 LLM(거대 언어 모델)이나 VLM과 같은 파운데이션 모델(Foundation Model)이 가상 세계를 넘어 물리 세계(Physical World)로 진출하는 교두보를 마련했다. 픽셀 공간을 매개체로 하여 언어 모델의 지능을 로봇의 제어 루프에 성공적으로 통합한 사례는, 향후 더 복잡한 조작(Manipulation)이나 협업(Collaboration) 작업으로의 확장 가능성을 시사한다.
7.3 한계 및 향후 연구 방향
비록 VAMOS가 뛰어난 성과를 보였으나, 여전히 해결해야 할 과제들은 남아 있다.
- 실시간성: 거대 모델인 VLM을 실시간 내비게이션 루프에서 구동하기 위한 추론 속도 최적화가 지속적으로 요구된다.
- 동적 장애물: 현재의 연구는 주로 정적 환경이나 완만하게 변화하는 환경에 초점을 맞추고 있다. 빠르게 움직이는 사람이나 차량이 있는 고도로 동적인 환경에서의 안전성 확보는 추가적인 연구가 필요하다.
- 3차원 공간 확장: 현재 2D 픽셀 공간의 경로 계획을 넘어, 3차원 복셀(Voxel)이나 의미론적 지도(Semantic Map)를 활용한 입체적 계획으로 발전할 여지가 있다.7
8. 결론 (Conclusion)
본 보고서는 2025년 10월 워싱턴 대학교와 미 육군 연구소가 발표한 VAMOS 프레임워크를 심층적으로 분석하였다. VAMOS는 시각-언어-행동 모델을 계층적으로 설계하여, 범용적인 의미론적 계획과 로봇 특화적인 신체 제어를 성공적으로 통합한 선구적인 연구이다.
본 연구의 핵심 요약:
- 계층적 아키텍처의 승리: 범용 VLM 계획기와 시뮬레이션으로 학습된 어포던스 모델의 결합을 통해, 데이터 효율성과 물리적 안전성을 동시에 확보했다.
- 능력 조절을 통한 안전성 혁신: 로봇이 자신의 물리적 한계를 인지하고 불가능한 계획을 거부하는 능력을 갖춤으로써, 내비게이션 성공률을 기존 대비 3배 이상 끌어올렸다.1
- 진정한 범용성 확보: 단일한 두뇌 모델로 바퀴형 로봇과 보행 로봇 등 이기종 하드웨어를 제어할 수 있는 교차 신체화 능력을 입증했다.2
- 직관적인 인간-로봇 소통: 자연어 조향 기능을 통해 사용자의 의도를 실시간으로 경로 계획에 반영하는 유연한 인터페이스를 구축했다.
VAMOS는 로봇이 단순히 명령을 수행하는 기계에서, 환경을 이해하고 자신의 능력을 판단하며 인간과 소통하는 지능형 에이전트로 진화하고 있음을 보여준다. 이는 향후 가정용 서비스 로봇, 재난 구조 로봇, 물류 로봇 등 다양한 분야에서 자율 주행 기술의 상용화를 앞당기는 중요한 기술적 토대가 될 것이다.
9. 참고 자료
- VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation - arXiv, https://arxiv.org/html/2510.20818
- [2510.20818] VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation - arXiv, https://arxiv.org/abs/2510.20818
- Robot Learning Lab, https://robotlearning.cs.washington.edu/
- VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation - arXiv, https://arxiv.org/html/2510.20818v1
- VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation - ResearchGate, https://www.researchgate.net/publication/396847609_VAMOS_A_Hierarchical_Vision-Language-Action_Model_for_Capability-Modulated_and_Steerable_Navigation
- VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation - ChatPaper, https://chatpaper.com/paper/202659
- NaVILA: Legged Robot Vision-Language-Action Model for Navigation | Request PDF, https://www.researchgate.net/publication/395362440_NaVILA_Legged_Robot_Vision-Language-Action_Model_for_Navigation